检索结果

Select

1. 基于流网络的流式计算动态任务调度策略

李梓杨, 于炯, 卞琛, 鲁亮, 蒲勇霖

计算机应用 2018, 38 (9): 2560-2567. DOI: 10.11772/j.issn.1001-9081.2017122910

摘要（1190）

PDF （1352KB）（416）

针对大数据流式计算平台中输入数据流速急剧上升所导致的计算延迟升高问题，提出了基于流网络模型的动态调度策略，并将其应用于Flink数据流计算平台。首先，通过定义有向无环图（DAG）中每条边的容量和流量将其转化为流网络模型，并通过容量检测算法确定每条边的容量值；然后，通过最大流算法计算对应的增进网络和优化路径，从而在输入速率上升阶段提升集群的吞吐量，并通过评估时空代价论证了算法的可行性；最后，讨论了重要参数对算法执行效果的影响，并通过实验得出了在不同类型的作业中推荐的参数取值。经实验验证得出：所提算法与Flink平台现有的任务调度策略相比，在输入速率上升阶段对不同作业类型中集群吞吐量的优化比均高于16.12%。实验结果表明动态调度策略在满足任务延迟约束的前提下有效提高了集群的吞吐量。

参考文献 | 相关文章 | 多维度评价

Select

2. Storm环境下基于权重的任务调度算法

鲁亮, 于炯, 卞琛, 英昌甜, 师康利, 蒲勇霖

计算机应用 2018, 38 (3): 699-706. DOI: 10.11772/j.issn.1001-9081.2017082125

摘要（560）

PDF （1385KB）（584）

大数据流式计算平台Apache Storm默认采用轮询的方式进行任务调度，未考虑到拓扑中各任务计算开销的差异以及任务之间不同类型的通信模式，在负载均衡和通信开销方面存在较大的优化空间。针对这一问题，提出一种Storm环境下基于权重的任务调度算法（TSAW-Storm）。该算法首先根据各任务的CPU资源占用情况以及任务间的数据流大小，分别确定拓扑的点权和边权；并利用最大化边权增益的思想，逐步构建起各工作节点中承载的任务集合，在保证集群负载均衡的同时，尽可能将边权较大的节点间数据流转化为节点内数据流，从而降低网络传输开销。实验结果表明，在包含有8个工作节点的WordCount基准测试中，TSAW-Storm的系统延迟和节点间数据流大小相比Storm默认调度算法分别降低了30.0%和32.9%，且各工作节点的CPU负载标准差仅为Storm默认调度算法的25.8%；此外，在与在线调度算法的对比实验中，TSAW-Storm在系统延迟、节点间数据流大小和CPU负载标准差方面分别降低了7.76%、11.8%和5.93%，且算法的执行开销明显降低，有效提高了Storm系统的运行效率。

参考文献 | 相关文章 | 多维度评价

Select

3. 基于迭代填充的内存计算框架分区映射算法

卞琛, 于炯, 修位蓉, 英昌甜, 钱育蓉

计算机应用 2017, 37 (3): 647-653. DOI: 10.11772/j.issn.1001-9081.2017.03.647

摘要（446）

PDF （1133KB）（382）

针对内存计算框架Spark在作业Shuffle阶段一次分区产生的数据倾斜问题，提出一种内存计算框架的迭代填充分区映射算法（IFPM）。首先，分析Spark作业的执行机制，建立作业效率模型和分区映射模型，给出作业执行时间和分配倾斜度的定义，证明这些定义与作业执行效率的因果逻辑关系；然后，根据模型和定义求解，设计扩展式数据分区算法（EPA）和迭代式分区映射算法（IMA），在Map端建立一对多分区函数，并通过分区函数将部分数据填入扩展区内，在数据分布局部感知后再执行扩展区迭代式的多轮数据分配，根据Reduce端已分配数据量建立适应性的扩展区映射规则，对原生区的数据倾斜进行逐步修正，以此保障数据分配的均衡性。实验结果表明，在不同源数据分布条件下，算法均提高了作业Shuffle过程分区映射合理性，缩减了宽依赖Stage的同步时间，提高了作业执行效率。

参考文献 | 相关文章 | 多维度评价

Select

4. 基于负载感知的数据流动态负载均衡策略

李梓杨, 于炯, 卞琛, 王跃飞, 鲁亮

计算机应用 2017, 37 (10): 2760-2766. DOI: 10.11772/j.issn.1001-9081.2017.10.2760

摘要（759）

PDF （1299KB）（853）

针对大数据流式计算平台中存在节点间负载不均衡、节点性能评估不全面的问题，提出基于负载感知算法的动态负载均衡策略，并将算法应用于Flink数据流计算平台中。首先通过有向无环图的深度优先搜索算法获取节点的计算延迟时间作为评估节点性能的依据，并制定负载均衡策略；然后基于数据分块管理策略实现流式数据的节点间负载迁移技术，通过反馈实现全局和局部的负载调优；最后通过实验评估时空代价论证算法的可行性，并讨论重要参数对算法执行效果的影响。经实验验证算法通过优化流式计算任务的负载分配提高了任务的执行效率，与采用Flink平台现有的负载均衡策略相比，任务执行时间平均缩短6.51%。

参考文献 | 相关文章 | 多维度评价

Select

5. 基于内存云的大块数据对象并行存取策略

褚征, 于炯, 鲁亮, 英昌甜, 卞琛, 王跃飞

计算机应用 2016, 36 (6): 1526-1532. DOI: 10.11772/j.issn.1001-9081.2016.06.1526

摘要（550）

PDF （1195KB）（395）

由于内存云(RAMCloud)只支持最大1 MB的小块数据对象存储,因此当大于1 MB的对象需要存储在内存云集群中就会受到对象大小的限制,无法在集群中进行存储。为了解决内存云存储限制的问题,提出了基于内存云的大块数据对象并行存取策略。该存储策略首先将大块数据对象分割成若干个1 MB的小块数据对象,然后在客户端生成数据摘要,最后使用并行存储算法将客户端分割成的小块数据对象存储在内存云集群中。读取时首先读取数据摘要,然后根据数据摘要从内存云集群中并行读取小块数据对象,并将小块数据对象合并生成大块数据对象。实验结果表明:大块数据对象的并行存取策略在不破坏内存云集群体系结构的前提下存储时间为16~18 μs,读取时间为6~7 μs。在InfiniBand网络架构下,所提并行算法的加速比呈现类似线性的增长,它使大块数据对象也能够像小块数据对象一样在微秒级别下快速、高效地进行存取。

参考文献 | 相关文章 | 多维度评价

Select

6. 基于复杂网络节点重要性的链路预测算法

陈嘉颖, 于炯, 杨兴耀, 卞琛

计算机应用 2016, 36 (12): 3251-3255. DOI: 10.11772/j.issn.1001-9081.2016.12.3251

摘要（889）

PDF （902KB）（876）

提升链路预测精度是复杂网络研究的基础问题之一，现有的基于节点相似的链路预测指标没有充分利用网络节点的重要性，即节点在网络中的影响力。针对以上问题提出基于节点重要性的链路预测算法。该算法在基于局部相似性链路预测算法的共同邻居（CN）、Adamic-Adar（AA）、Resource Allocation（RA）相似性指标的基础上，充分利用了节点度中心性、接近中心性及介数中心性的信息，提出考虑节点重要性的CN、AA、RA链路预测相似性指标。在4个真实数据集上进行仿真实验，以AUC值作为链路预测精度评价指标，实验结果表明，改进的算法在4个数据集上的链路预测精度均高于共同邻居等对比算法，能够对复杂网络结构产生更精确的分析预测。

参考文献 | 相关文章 | 多维度评价